بازشناسی احساس از روی گفتار پیوسته فارسی

thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
author مینا حمیدی
adviser محرم منصوری زاده هومان نیک مهر
publication year 1391

abstract

در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چنین به آن پرداخته نشده است. برای ارزیابی عملکرد سیستم طراحی شده، نیاز به پایگاه داده مناسبی داشتیم. به علت نبود پایگاه داده مناسب اقدام به ساخت و تهیه پایگاه داده صوتی احساسی نموده و آن را basu speech database نام نهادیم. این پایگاه داده از صدای ضبط شده بازیگران در سریال ها و فیلم های تلوزیونی و نمایشنامه های رادیویی ساخته شده است. هدف طبیعی بودن و جامع بودن گفتار موجود در پایگاه داده بود که به همین خاطر در این پایگاه از گفتار زن و مرد و در رده های مختلف سنی استفاده شده است. در این مدل ابتدا ویژگی های مورد نیاز گفتار را استخراج کرده و با استفاده از سه طبقه بند شبکه عصبی، svm و بیز به بازشناسی احساس از گفتار پرداخته شده و نتایج به دست آمده مقایسه و تحلیل شده است. در این پایان نامه سه آزمایش متفاوت ترتیب داده شده است. آزمایش اول و دوم به بازشناسی احساس تنها یک فرد پرداخته، با این تفاوت که در آزمایش اول هر احساس به صورت جدا بررسی شده اما در آزمایش دوم هر پنج احساس مورد نظر مورد بررسی قرار گرفته شده است. اما آزمایش سوم بر روی کل پایگاه داده تهیه شده، انجام گرفته است. بر اساس نتایج به دست آمده، بازشناسی احساس از گفتار برای یک شخص خاص نتایج بهتری از خود نشان خواهد داد، علاوه بر این هر چه تعداد احساس مورد بررسی بیشتر شود، احتمال نزدیک شدن آنها به هم و پایین آمدن دقت بیشتر خواهد شد. در آزمایشات انجام شده طبقه بند بیز دقت بالاتری برای بازشناسی احساس از گفتار بدست آورده است. با مقایسه نتایج بدست آمده در این تحقیق با کارهای دیگری که در این زمینه انجام شده اند، دقت به دست آمده در آزمایشات انجام شده در این پایان نامه که به صورت میانگین برای سه طبقه بند شبکه عصبی، svm و بیز به ترتیب،6.69%، 4.71% و 78% می باشد، نتایج قابل قبولی خواهند بود.

similar resources

بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی

گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیا...

15 صفحه اول

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واجهای گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآییها، رتبهبندی واجها صورت گرفته‌اند. جهت برآورد کارآیی واجها، از یک معیاری که بهصورت نسب « فاصلة بینگویندهای» واجها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیدهایم، استفاده شده است. آزمایشها و محاسبات لازم برای کلیه واجهای گفتار...

full text

بررسی تاثیر سرعت گفتار روی زمان شروع واک (وی اُتی) همخوان های انسدادی فارسی معیار در گفتار پیوسته

مطالعۀ حاضر به بررسی تأثیر سرعت گفتار روی زمان شروع واک (وی‌اُتی) همخوان‌های انسدادی واکدار /b, d, ɟ/ و بیواک /p,t,c/ زبان فارسی معیار می‌پردازد. به این منظور، طی آزمون تولیدی تعداد 8 جمله حاوی کلمات آزمایش، هر کدام 3 مرتبه توسط 24 شرکت ‌کننده (17 شرکت ‌کنندۀ مؤنث و 7 شرکت ‌کنندۀ مذکر) در سرعت‌های متفاوت تولید شدند. مقادیر وی‌اُتی برای همخوان‌های انسدادی واکدار و بیواک به تفکیک موقعیت در واژه (...

full text

پایه‌گذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی

Although researches in the field of Persian speech recognition claim a thirty-year-old history in Iran which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database ...

full text

مدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی

مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...

full text

معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی

In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی

Keywords

بازشناسی احساس پایگاه داده صوتی احساس گفتار پیوسته فارسی

Hosted on Doprax cloud platform doprax.com